Biomedical named entity recognition (BioNER) seeks to automatically recognize biomedical entities in natural language text, serving as a necessary foundation for downstream text mining tasks and applications such as information extraction and question answering. Manually labeling training data for the BioNER task is costly, however, due to the significant domain expertise required for accurate annotation. The resulting data scarcity causes current BioNER approaches to be prone to overfitting, to suffer from limited generalizability, and to address a single entity type at a time (e.g., gene or disease). We therefore propose a novel all-in-one (AIO) scheme that uses external data from existing annotated resources to improve generalization. We further present AIONER, a general-purpose BioNER tool based on cutting-edge deep learning and our AIO schema. We evaluate AIONER on 14 BioNER benchmark tasks and show that AIONER is effective, robust, and compares favorably to other state-of-the-art approaches such as multi-task learning. We further demonstrate the practical utility of AIONER in three independent tasks to recognize entity types not previously seen in training data, as well as the advantages of AIONER over existing methods for processing biomedical text at a large scale (e.g., the entire PubMed data).
translated by 谷歌翻译
自我监督的神经语言模型最近在有机分子和蛋白质序列的生成设计中发现了广泛的应用,以及用于下游结构分类和功能预测的表示学习。但是,大多数现有的分子设计深度学习模型通常都需要一个大数据集并具有黑盒架构,这使得很难解释其设计逻辑。在这里,我们提出了生成分子变压器(GMTRANSFORMER),这是一种用于分子生成设计的概率神经网络模型。我们的模型建立在最初用于文本处理的空白填充语言模型上,该模型在学习具有高质量生成,可解释性和数据效率的“分子语法”方面具有独特的优势。与其他基线相比,我们的模型在摩西数据集上的基准测试后获得了高新颖性和SCAF。概率生成步骤具有修补分子设计的潜力,因为它们有能力推荐如何通过学习的隐式分子化学指导,并通过解释来修饰现有分子。可以在https://github.com/usccolumbia/gmtransformer上自由访问源代码和数据集
translated by 谷歌翻译
基于深度学习的高光谱图像(HSI)恢复方法因其出色的性能而广受欢迎,但每当任务更改的细节时,通常都需要昂贵的网络再培训。在本文中,我们建议使用有效的插入方法以统一的方法恢复HSI,该方法可以共同保留基于优化方法的灵活性,并利用深神经网络的强大表示能力。具体而言,我们首先开发了一个新的深HSI DeNoiser,利用了门控复发单元,短期和长期的跳过连接以及增强的噪声水平图,以更好地利用HSIS内丰富的空间光谱信息。因此,这导致在高斯和复杂的噪声设置下,在HSI DeNosing上的最新性能。然后,在处理各种HSI恢复任务之前,将提议的DeNoiser插入即插即用的框架中。通过对HSI超分辨率,压缩感测和内部进行的广泛实验,我们证明了我们的方法经常实现卓越的性能,这与每个任务上的最先进的竞争性或甚至更好任何特定任务的培训。
translated by 谷歌翻译
管道内的攀岩机器人的蓝图,该机器人可与尖锐的传输一起研究复杂的线关系。探索管道转弯时,标准的轮式攀爬机器人往往会滑动。仪器有助于实现非常独特的延迟序列,在该顺序中,机器人随着进展而滑动和拖动。提议的变速箱连接了标准两输出变速器的最远地面平面。这为3个输出传输打开了大量时间。该仪器考虑了线路中每个轨道上施加的力,以专门改变机器人的轨道速度,从而解锁了良好控制的钥匙。机器人在具有不同轴承和防滑管道弯曲的管网上的挠度证明了所提出的结构的完整性。
translated by 谷歌翻译
光谱型子空间聚类算法成功的关键点是寻求重建系数矩阵,这些矩阵可以忠实地揭示数据集的子空间结构。理想的重建系数矩阵应该具有两个属性:1)它是块对角线,每个块指示一个子空间; 2)每个块完全连接。尽管已经提出了各种光谱类型子空间聚类算法,但这些算法构建的重建系数矩阵中仍然存在一些缺陷。我们发现,归一化成员矩阵自然满足上述两个条件。因此,在本文中,我们设计了一种基本表示(IDR)算法来追求近似归一化成员矩阵的重建系数矩阵。 IDR设计了重建系数矩阵的新的IDEMTOTENT约束。通过将双随机约束结合在一起,可以直接实现与归一化构件矩阵封闭的系数矩阵。我们提出了用于解决IDR问题的优化算法,并分析其计算负担和收敛性。 IDR和相关算法之间的比较显示IDR的优势。对合成和现实世界数据集进行的大量实验证明,IDR是一种有效而有效的子空间聚类算法。
translated by 谷歌翻译
根据数据得出的模型的顺序/维度通常受观测值的数量或受监视系统(传感节点)的上下文的限制。对于结构系统(例如,民用或机械结构)尤其如此,这通常是高维本质上的。在物理知识的机器学习范围内,本文提出了一个框架(称为神经模态odes),以将基于物理学的建模与深度学习(尤其是神经通用差分方程 - 神经odes)整合在一起,以建模受监视和高的动态。 - 维工程系统。在这种启动探索中,我们将自己限制在线性或轻度非线性系统中。我们提出了一种结构,该体系结构将变异自动编码器的动态版本与物理信息的神经odes(Pi-神经odes)融合在一起。作为自动编码器的一部分,编码器从观测数据的前几个项目到潜在变量的初始值学习了抽象映射,从而驱动通过物理知识的神经odes学习嵌入式动力学,并施加\ textit {模态模型}该潜在空间的结构。所提出的模型的解码器采用了从应用于基于物理学模型的线性化部分的本征分析中得出的本征模:一种隐含携带自由度(DOFS)之间的空间关系的过程。该框架在数值示例中得到了验证,以及一个缩放的电缆固定桥的实验数据集,在该数据集中,学到的混合模型被证明胜过纯粹基于物理的建模方法。我们进一步显示了在虚拟传感的上下文中,即从空间稀疏数据中恢复了未衡量的DOF中的广义响应量。
translated by 谷歌翻译
大型未标记语料库上的预训练的变压器语言模型已产生了最新的最先进的结果,从而导致了自然语言处理,有机分子设计和蛋白质序列的产生。但是,尚未应用这种模型来学习无机材料的组成模式。在这里,我们使用在ICSD,OQMD中存放的材料和材料项目数据库中扩展的公式培训了七种现代变压器模型(GPT,GPT-2,GPT-2,GPT-NEO,GPT-NEO,GPT-J,BLMM,BART和ROBERTA) 。六个不同的数据集,具有/输出非电荷 - 中性或平衡的电负性样品用于对性能进行基准测试,并发现现代变压器模型的产生偏见,以生成材料组成的生成设计。我们的广泛实验表明,基于因果语言模型的材料变形金刚可以产生高达97.54 \%的化学有效材料组合物,即充电中性,而91.40 \%的电负性平衡,与基线相比,它的富集高6倍以上伪随机抽样算法。这些模型还表现出了很高的新颖性,并且它们在新材料发现中的潜力已经证明了它们的能力恢复了留出的材料。我们还发现,可以通过使用精选的训练集(例如高带盖材料)训练模型来量身定制生成的样品的性能。我们的实验还表明,不同模型在生成样品的属性方面都有自己的喜好,并且其运行时间复杂性差异很大。我们已经应用了材料变压器模型来发现一套使用DFT计算验证的新材料。
translated by 谷歌翻译
生物医学文献中的自动关系提取(RE)对于研究和现实世界中的许多下游文本挖掘应用至关重要。但是,用于生物医学的大多数现有基准测试数据集仅关注句子级别的单一类型(例如蛋白质 - 蛋白质相互作用)的关系,从而极大地限制了生物医学中RE系统的开发。在这项工作中,我们首先审查了常用的名称实体识别(NER)和RE数据集。然后,我们提出了Biored,这是一种具有多种实体类型(例如,基因/蛋白质,疾病,化学)和关系对(例如,基因 - 疾病;化学化学化学化学)的首个生物医学RE语料库,在文档水平上,在一组600个PubMed摘要中。此外,我们将每个关系标记为描述一种新颖的发现或先前已知的背景知识,使自动化算法能够区分新颖和背景信息。我们通过基准在NER和RE任务上对几种现有的最新方法(包括基于BERT的模型)进行基准测试来评估Biored的实用性。我们的结果表明,尽管现有方法可以在NER任务上达到高性能(F-评分为89.3%),但重新任务的改进空间很大,尤其是在提取新颖的关系时(F-评分为47.7%)。我们的实验还表明,如此丰富的数据集可以成功地促进生物医学更准确,高效和健壮的RE系统的开发。 Biored数据集和注释指南可在https://ftp.ncbi.nlm.nih.gov/pub/lu/biored/中免费获得。
translated by 谷歌翻译
In this report, we present PP-YOLOE, an industrial state-of-the-art object detector with high performance and friendly deployment. We optimize on the basis of the previous PP-YOLOv2, using anchor-free paradigm, more powerful backbone and neck equipped with CSPRepResStage, ET-head and dynamic label assignment algorithm TAL. We provide s/m/l/x models for different practice scenarios. As a result, PP-YOLOE-l achieves 51.4 mAP on COCO test-dev and 78.1 FPS on Tesla V100, yielding a remarkable improvement of (+1.9 AP, +13.35% speed up) and (+1.3 AP, +24.96% speed up), compared to the previous state-of-the-art industrial models PP-YOLOv2 and YOLOX respectively. Further, PP-YOLOE inference speed achieves 149.2 FPS with TensorRT and FP16-precision. We also conduct extensive experiments to verify the effectiveness of our designs. Source code and pre-trained models are available at https://github.com/PaddlePaddle/PaddleDetection.
translated by 谷歌翻译
格子振动频率与许多重要的材料属性有关,例如热和导电性以及超导性。然而,使用密度泛函理论(DFT)方法的振动频率的计算计算过于计算地要求大量的材料筛选样本。在这里,我们提出了一种基于深度的基于神经网络的基于神经网络的算法,用于预测具有高精度的晶体结构的晶振频率。我们的算法使用零填充方案来解决振动频谱的变量尺寸。有关15,000和35552个样本的两个数据集的基准研究表明,汇总$ ^ 2 $分别分别达到0.554和0.724。我们的作品展示了深图神经网络的能力,除了输出尺寸是恒定的状态(DOS)和电子DOS的声子密度之外,还可以学习晶体结构的声光谱性能。
translated by 谷歌翻译